metaSPAdes:新型多功能宏基因组拼接工具
metaSPAdes:新型多功能宏基因组拼接软件
metaSPAdes: a new versatile metagenomic assembler
Genome Research, [9.944]
2017-3-15 Method
DOI: https://doi.org/10.1101/gr.213959.116
第一作者:Sergey Nurk1,4, Dmitry Meleshko1,4
通讯作者:Pavel A. Pevzner1,3*
其它作者:Anton Korobeynikov
作者主要单位:
1俄罗斯圣彼得堡国立大学,转化生物医学研究所,算法生物技术中心(Center for Algorithmic Biotechnology, Institute for Translational Biomedicine, St. Petersburg State University, St. Petersburg, Russia)
2俄罗斯圣彼得堡国立大学,统计模型系(Department of Statistical Modelling, St. Petersburg State University, St. Petersburg, Russia)
热心肠日报
metaSPAdes:株水平高精度宏基因组拼接软件
metaSPAdes是目前宏基因组领域组装指标较好的软件,尤其在株水平组装优势明显;
软件基于SPAdes系列积累的单细胞和高度多态的二倍体基因组中积累的有用经验;
软件与宏基因组领域主流组装工具MEGAHIT、IDBA—UD、Ray-Meta进行比较,在合成群落、人类、海洋和土壤微生物组中均表现出更好的基因长度和读长比较率;
软件在组装中对宏基因组中的相近菌株的组装、重复序列处理进行优化,以获得更好的组装长度;
值得注意更好的组装质量也伴随着更长时间和内存消耗,同时也有错误组装上升的风险。
点评:metaSPAdes是目前宏基因组领域组装指标最好、最耗时和耗内存的软件,也存在提高错误率。其支持混装是一大优点,还有很多子版本,如metaplasmidSPAdes装质粒(https://www.mr-gut.cn/papers/read/1041966050)。此软件也是组装评比中必用软件,如《宏基因组仿真数据生成软件:CAMISIM》(https://www.mr-gut.cn/papers/read/1045860958)。最新组装工具OPERA-MS也会与其对标比较(https://www.mr-gut.cn/papers/read/1088940721)。
摘要
尽管宏基因组学已经成为分析细菌群落的一种首选技术,但是宏基因组学数据的组装/拼接仍然具有挑战性,从而扼杀了生物学发现。此外,最近的研究表明,复杂的细菌种群可能由数十个相关菌株组成,从而进一步放大了宏基因组学组装的难度。metaSPAdes通过利用证明对单细胞和高度多态的二倍体基因组的组装有用的计算思想来应对宏基因组组装的各种挑战。我们将metaSPAdes与其他最新的宏基因组拼接软件进行了基准比较,并证明了它可实现跨各种数据集的高质量组装。
结果
metaSPAdes流程概述
Outline of metaSPAdes pipeline
metaSPAdes首先使用SPAdes构造所有读长的de Bruijn图,使用各种图简化程序将其转换为装配图,并基于宏基因组中的长基因组片段构建相对应的装配图(Bankevich et al.2012; Nurk et al.2013)。
metaSPAdes可在广泛的覆盖深度下工作,变尝试装配结果在准确性和连续性之间保持权衡。为应对微多样性挑战,
metaSPAdes专注于重建
株水平混合物的一致骨架,因此忽略了一些对应于罕见的菌的株特异性特征。
到。
表1. 所有数据集和所有组装程序的支架总长度(以兆为单位)
基于20种菌的合成菌群(Synth)、人类微生物组数据(HMP)、海洋和土壤样本。
Table 1. The total length of scaffolds (in megabases) for all data sets
and all assemblers
显示了10个最长,1000个最长以及所有All > 1 kb的支架的统计信息。单元格的颜色反映了各种组装程序的结果与中值之间的差异(蓝色/红色单元格表示结果与中值相比有所改善/变差)。
在长度方面,metaSPades和IDBA-UD较好,而MEGAHIT较差,Ray-Meta最差。
详者注:此图只是看拼接长度,长不一定代表是对的;而且分析中计算时间和资源消耗也是选择的重要因素。
图1. 支架累计长度图
Figure 1. The cumulative scaffold lengths plots
x轴支架按长度从大到小排列。y轴展示累加的递增曲线。此图与表1,因似,但更能看到各软件间的实际差异程度。看到不同软件在不同来源数据中有较大的表现差异,如Ray在HMP中表现不错,但在Soil和Marine中极差。
表2. 预测基因大于800的数量和总长
Table 2. Number (in thousands) and total length (in Mb) of predicted genes > 800 bp for all data sets and all assemblers
颜色使用展示至中值的偏差。
与表1结果类似,因为与拼接长度有关,而且作者用了800bp的高阈值会突显其长的优势。这是一种突出的表达方式,好都是相对的,没有绝对的。近期关于短蛋白的研究,也发了Cell,如下:
表3. 序列比对的比例
Table 3. Fraction of aligned single and paired reads (both unique and nonunique) for all data sets and all assemblers (in percentages)
四种略有区别,但整体上都非常不错。而且细节不同软件的参数也会有进一步影响,仅供参考。metaSPAdes虽然大部分最高,但时间和内存用量可能很多人都无法接受。
图2. 评估20个菌群的人工合成群落
20种最丰富的物种的基因组的NGA50统计数据(左上),与总基因组长度相比重建的基因组的比例(右上),基因组内错误组装的数量(左下)和基因组间错误组装的数量(右下) SYNTH数据集,引用由其RefSeq ID表示(请参阅补充表S2),并按覆盖深度的降序排列。
NGA50:组装错误校正的NG50(NG50 statistics corrected for assembly errors),由metaQUAST评估产生。
表4. 序列比对的比例
表4.各种宏基因组拼接程序针对土壤数据集生成的长支架(> 1 kb)与Bankevich和Pevzner生成的TSLR重叠群的比较(2016)
这个数据metaSPADES更方法都表现更好,可能是数据的偶然。正常拼接长度的增加会伴随错误装增长。如IDBA-UD与megahit,更长的错误明显列多。
图3. 3个菌株分别和混合组装的de Bruijn图
Figure 3. The de Bruijn graphs of three strains and their strain mixture.
该图仅显示了de Bruijn图的一小部分子图。粗线显示了丰富的株(株1),细线显示了稀有株(株2和株3)。基因组重复序列R以红色显示。(左上)丰富菌株的de Bruijn图。(右上角)稀有株2与丰富株1的不同之处在于插入了一个额外的拷贝或重复R。此插入产生的两个断点边缘以绿色显示。这些网路边缘没有通过针对分离物的标准组装工具中的图形简化程序删除。(左下)稀有菌株3与丰富菌株1的不同之处在于插入了水平转移的基因(或高度分歧的基因组区域)。(右下)三种菌株的混合物的de Bruijn图。
图4. 应用宏基因组学特定的决策规则进行重复序列解析
Figure 4. Applying the metagenomics-specific decision rule for repeat resolution
该图仅显示了装配图的一小部分子图。
(A)当前正在扩展的路径(由绿色边缘形成)及其蓝色扩展边缘e和e’。
(B)从延伸边缘e的末端开始的短边遍历。虚线表示遍历的边界。设置的next(e)中的边缘以红色显示,低覆盖率的边缘以虚线箭头表示(next(e)中的其他边缘以实线箭头表示)。由于next(e)中的所有边缘均具有较低的覆盖率,因此将边缘e排除为不太可能的扩展候选。
(C)从延伸边缘e’的末端开始的短边遍历。(D)由于e’是未被排除的单个扩展边缘(next(e’)中存在实心边缘),因此将其添加到增长路径中,并且扩展过程继续进行。
图5. 在宏基因组学组装中重复解析
Figure 5. Repeat resolution in metagenomic assembly
(A)丰富菌株中长(大于插入片段大小)重复序列R(红色)的两个相同拷贝之一已突变为稀有菌株中独特的基因组“绿色”区域R’。
(B)由丰富和稀有菌株的读长混合而成的装配图。绿边的起点和终点之间的两条替代路径(一个由一个绿色边形成,另一个由两个黑边和一个红色边形成)形成一个凸起。
(C)在“生成株重叠群”步骤中,由exSPAnder构建的跨越R’的株重叠群(用绿色虚线显示)。
(D)在“将装配图转换为共识装配图”步骤中掩盖株变化会导致凸出的投影(由红色和绿色边缘形成),并导致共识装配图显示在E中。蓝色箭头强调SPAdes投影而不是删除凸起,从而有助于后续在共识装配图中重构株路径。
(E)重建株路径(绿色虚线),对应于“共识组装图中的生成株路径”步骤中的株重叠群(绿色虚线)。
(F)在“使用应变路径进行重复解析”步骤中,metaSPAdes同时利用株路径和配对读长来解析共有图中的重复。来自E的绿色虚线株路径用作附加信息,以重建跨越长重复序列的共有重叠群cRd。
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
文献阅读 热心肠 SemanticScholar Geenmedical
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”